实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩
实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
搜索
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
押注 AI 的 Memory Layer。
布朗大学的博士生 Yong Zheng-Xin 今天自宣了下个月将正式加入 OpenAI,作为 Astra Fellow 专注于 AI 的安全研究(AI Safety Research)。
一款没有输入框的AI应用,正在北美高校悄悄走红。
Harsh Mehta 在 Anthropic 的时候,启动了一个后来被称为 autoresearch 的内部平台(不是 Karpathy 那个)。最初这个项目只有他一个人,功能是让 AI 自主完成 AI 研发中的一系列流程环节:提出实验假设、编写代码、调度算力、评估结果,再决定下一步做什么。
近期Radical AI 的 CEO Joseph Krause接受了一次深度访谈,在访谈中,他揭开了现在资本热炒的 “AI for Science” 的虚假外衣。如果你以为搞材料研发只要像生物制药一样,用大模型在云端“跑个分”就能大力出奇迹,那这期节目会给你狠狠上一课,你会发现,真正的材料学 AI 护城河,离我们简单的想象差了十万八千里。
一场关于「去哪里找电」的全球竞赛,正在朝两个方向展开。
群友昨天发来一条消息,说闲鱼上连 Codex 的额度重置次数都能买到:
过去两年,随着 AI 数据中心建设持续加速,光通信开始成为整个 AI 基础设施中增长最快的环节之一。
大模型浪潮席卷全球数年,技术形态持续迭代,也开始从办公、编程领域,深度渗透到科研这一核心赛道。从中科大夯实数理根基,到哈佛、MIT 完成联合培养,青年学者陈勇超横跨力学、机器人、自然语言处理、大模型等多个领域,完整亲历 AI 一轮轮技术变革。